# Capítulo 2

# Titulo por definir

«La verdadera ciencia enseña, sobre todo, a dudar y a ser ignorante.» Ernest Rutherford

**RESUMEN:** En este capítulo se define con detalle lo que es un procesador y su importancia en el mundo de hoy en día. También se tratan dos arquitectura más concretas, la arquitectura DLX y la arquitectura ARM.

A continuación se define qué es un fallo y qué tipos de fallos pueden ocurrir en los sistemas. Además se explican algunas técnicas de tolerancia a fallos.

Para terminar, se justifica la importancia de la tolerancia en los sistemas y concretamente porqué es necesaria la tolerancia en los microprocesadores.

# 2.1. Procesador

El Diccionario de la Real Academia Española (DRAE) define el procesador como la «Unidad Central de Proceso (CPU), formada por uno o dos chips». Figura 2.1.

La CPU es el circuito integrado encargado de acceder a las instrucciones de los programas informáticos y ejecutarlas. Para poder ejecutar un programa, el procesador debe realizar las siguientes tareas:

- 1. Acceder a las instrucciones almacenadas en memoria.
- 2. Analizar las instrucciones y establecer las señales de control internas.
- 3. Ejecutar operaciones sobre datos.



Figura 2.1: Procesador

4. Almacenar los resultados en memoria.

A continuación se definen los elementos fundamentales para constituir un procesador.

# 2.1.1. Arquitectura

Un procesador está formado por una serie de módulos conectados entre sí, siendo la arquitectura del mismo la que define el diseño de los módulos que lo componen y de qué manera se conectan entre ellos.

La arquitectura del procesador diseñada por Von Neumann separa los componentes del procesador en módulos básicos. La CPU es el verdadero núcleo de los computadores, donde se realizan las funciones de computación y control, y contiene todos los componentes la memoria y los elementos de entrada y salida [7].

Según el juego de instrucciones que sea capaz de ejecutar un procesador, su arquitectura puede clasificarse como:

- 1. Reduced instruction set computer (RISC). Utiliza un repertorio de instrucciones reducido, con instrucciones de tamaño fijo y poca variedad en su formato.
- 2. Complex instruction set computer (CISC). Utiliza un repertorio de instrucciones muy amplio, permite realizar operaciones complejas tales como realizar cálculos entre los datos en memoria y los datos en registro.
- 3. Simple instruction set computer (SISC). Utiliza un repertorio de instrucciones enfocado al procesamiento paralelo.

2.1. Procesador 9

#### 2.1.2. Repertorio de instrucciones

El repertorio de instrucciones define todas las operaciones que el procesador es capaz de entender y ejecutar. Este juego de instrucciones incluye las operaciones aritmético-lógicas que pueden aplicarse a los datos, las operaciones de control sobre el flujo del programa, las instrucciones de lectura y escritura en memoria, así como todas las instrucciones propias que se hayan diseñado para el procesador.

#### 2.1.3. Memoria

Los procesadores tienen una serie de registros donde se almacenan temporalmente los valores con los que está trabajando. El conjunto de estos registros se conoce como «banco de registros». Estos registros de propósito general son muy limitados, por lo que el procesador necesita de apoyo externo para alojar la información, para ello tiene acceso a una memoria externa.

El modo de acceso a la memoria externa divide las arquitecturas en dos tipos. La arquitectura Von Neumann utiliza una única memoria para almacenar tanto los datos como las instrucciones. La arquitectura Harvard, sin embargo, separan la memoria de datos de la memoria de instrucciones. Figura 2.2.



Figura 2.2: Arquitectura Von Neumann y Arquitectura Harvard

# 2.1.4. Segmentación

La segmentación es una técnica de implementación, que no siendo imprescindible, aumenta el rendimiento del procesador. Permite que haya varias instrucciones en ejecución al mismo tiempo en el mismo procesador. Se consigue dividiendo el procesador en etapas de modo que en cada una de ellas se realiza de forma secuencial una parte del trabajo completo de la instrucción de forma secuencial.

La segmentación permite que en cada ciclo de reloj se busque una instrucción y se comience su ejecución, con ello se consigue reducir el número

de ciclos total que necesita el programa. [7].

En la tabla 2.1 podemos ver cómo se procesa una serie de instrucciones. Se observa cómo cada instrucción va ocupando unicamente una etapa del procesador, y cómo avanza por el mismo dejando libre la etapa anterior para la siguiente instrucción.

|                       | Ciclo de reloj |    |    |     |     |     |     |     |    |
|-----------------------|----------------|----|----|-----|-----|-----|-----|-----|----|
| Número de instrucción | 1              | 2  | 3  | 4   | 5   | 6   | 7   | 8   | 9  |
| i                     | IF             | ID | EX | MEM | WB  |     |     |     |    |
| i + 1                 |                | IF | ID | EX  | MEM | WB  |     |     |    |
| i + 2                 |                |    | IF | ID  | EX  | MEM | WB  |     |    |
| i + 3                 |                |    |    | IF  | ID  | EX  | MEM | WB  |    |
| i + 4                 |                |    |    |     | IF  | ID  | EX  | MEM | WB |

Tabla 2.1: Segmentacion simple de 5 etapas

## Ventajas de la segmentación

La segmentación proporciona la ventaja de poder lanzar una instrucción por cada ciclo de reloj. Característica que aumenta el rendimiento del procesador al obtener un menor número total de ciclos por instrucción para un mismo programa. Para conocer los ciclos por instrucción que necesita un programa se utiliza la formula.

Ciclos por instrucción (CPI) = 
$$\frac{\text{Número de ciclos total}}{\text{Número de instrucciones}}$$
(2.1)

A modo de ejemplo, veamos que sucede al ejecutar un programa de 3 instrucciones sobre un procesador que tarde 5 ciclos de reloj en ejecutar cualquier instrucción, pero en un caso no segmentado, y en otro caso segmentado en 5 etapas de 1 ciclo cada una.

Como podemos ver en la figura 2.3, el procesador no segmentado tarda 15 ciclos en ejecutar las 3 instrucciones y aplicando la formula anterior se obtiene que el valor de CPI es 5. Al ejecutar el mismo programa en el procesador segmentado, este tarda 5 ciclos en ocupar las 5 etapas del procesador. A partir de ese momento cada ciclo de reloj termina una instrucción, completándose la ejecución del programa en 7 ciclos de reloj. El nuevo valor de CPI es de 2,33. Así pues, la segmentación ha reducido el número de ciclos por instrucción de este programa a menos de la mitad.

# Riesgos de la segmentación

A pesar de la ventaja vista en el apartado anterior, la segmentación también implica unos riesgos a la hora de ejecutar las instrucciones. Estos riesgos se traducen en que las instrucciones deban esperar un número de ciclos para poder continuar su ejecución, retrasando así el momento de su

2.1. Procesador

# Ejecución Secuencial



## Ejecución Segmentada



Figura 2.3: Ejecución secuencial comparada con ejecución segmentada

entrada en el microprocesador. Estos riesgos pueden ser de los siguientes tipos[7]:

- 1. Riesgos estructurales. Surgen cuando 2 o más instrucciones necesitan acceder a los mismos recursos.
- 2. Riesgos de datos. Surgen cuando una instrucción depende del resultado de una instrucción anterior, y este todavía no se ha escrito en el registro correspondiente. A su vez pueden ser:
  - Lectura después de escritura (RAW). Una instrucción intenta leer un dato antes de que se escriba en el registro.
  - Escritura después de lectura (WAR). La instrucción i+1 escribe el resultado en el registro antes de que la instrucción i haya leído el dato del mismo registro. Esto solo ocurre con instrucciones que realicen una escritura anticipada como por ejemplo, las instrucciones de auto-incremento de direccionamiento.
  - Escritura después de escritura (WAW). Ocurre cuando las escrituras se realizan en orden incorrecto. Por ejemplo la instrucción i+1 escribe su resultado antes de que lo haga la instrucción i, ambas escriben en el mismo registro.
  - Lectura después de lectura (RAR). Realmente no es un riesgo como tal, va que no se modifica ningún dato.
- 3. Riesgos de control. Surgen a consecuencia de las instrucciones que afectan al registro del contador de programa (PC).

#### 2.1.5. DLX

El microprocesador DLX fue diseñado por John Hennessy y David A. Patterson, diseñadores de las arquitecturas MIPS y Berkeley RISC respectivamente. Es un procesador sencillo con arquitectura RISC, que proporciona una base fácil de comprender. Se utiliza ampliamente en educación universitaria para explicar las arquitecturas de computadores [20].

Basado en las máquinas de carga/almacenamiento, el DLX se centra en proporcionar [7]:

- Un sencillo repertorio de instrucciones de carga/almacenamiento.
- Un diseño de segmentación eficiente.
- Un repertorio de instrucciones fácil de descodificar.

#### Arquitectura RISC

El microprocesador DLX utiliza una arquitectura RISC con instrucciones de 32 bits. Posee un banco de registros compuesto por 32 registros de propósito general, además de un segundo conjunto de registros que se pueden usar como 32 registros de simple precisión o como 16 registros en punto flotante.

#### Instrucciones DLX

Todas las instrucciones del repertorio del procesador DLX tienen un tamaño de 32 bits y están alineadas en memoria. En cualquier instrucción los bits [31:26] forman el campo de código de operación que se debe ejecutar.

Se dividen en tres tipos según su formato [1]:

- Tipo R. Instrucciones aritmético-lógicas.
- *Tipo I.* Instrucciones de transferencia.
- *Tipo J.* Instrucciones de bifurcación.

Como podemos observar en la figura 2.4, el formato es muy similar en los tres tipos, lo que reduce la ruta de datos, simplificando su implementación.

#### Segmentación DLX

El DLX basa su rendimiento en la segmentación que se divide en 5 etapas

■ Búsqueda de la instrucción (IF)

Esta primera etapa es la encargada de acceder a memoria y traer la siguiente instrucción.

2.1. Procesador



Figura 2.4: Formato de instrucciones DLX

■ Descodificación de la instrucción (ID)

En la segunda etapa se descodifica la instrucción cargada en la primera etapa, obteniendo las señales de control. Extrae los operandos del banco de registro o de la propia instrucción.

■ Ejecución y cálculo de direcciones efectivas (EX)

La tercera etapa se encarga de ejecutar la instrucción utilizando las unidades funcionales. Las unidades funcionales pueden estar segmentadas y/o duplicadas.

■ Acceso a memoria (MEM)

En la etapa de memoria es cuando se ejecutan las operaciones de carga y almacenamiento. Las instrucciones de carga traen datos de la memoria y los almacenam en los registros, mientras que las instrucciones de almacenamiento guardan los datos en memoria.

■ Postescritura (WB)

En la última etapa se almacenan los resultados de las instrucciones en los registros.

Como pudimos ver en la figura 2.1, las instrucciones se buscan en cada ciclo de reloj, a menos que surjan riesgos debido a la segmentación. Como vimos en el apartado 2.1.4, la segmentación implica ciertos riesgos. Para solucionar o reducir estos, el DLX implementa las siguientes técnicas [8]:

- 1. Duplicar y/o segmentar las unidades funcionales. Con ello se reducen los ciclos de espera debidos a los *riesgos estructurales*. Se consigue un mayor número de etapas para poder cargar nuevas instrucciones.
- 2. «Adelantamiento» (forwarding) o «Cortocircuito». Técnica encaminada a resolver los riesgos de datos. Se consigue proporcionar un acceso a

los resultados de instrucciones previas que todavía no han almacenado los datos en el «banco de registros».

- Lectura después de escritura (RAW). Debido al cortocircuito implementado, el dato es recibido de las etapas siguientes y no es necesario que se haya escrito en los registros.
- Escritura después de lectura (WAR). No puede ocurrir debido a que todas las lecturas se realizan al comienzo de la ejecución, en la etapa de descodificación, y las escrituras al final, en la etapa de postescritura.
- Escritura después de escritura (WAW). Solo se presenta en segmentaciones que escriben en más de una etapa, esta arquitectura no se ve afectada ya que solo escribe en la etapa de postescritura. puede ocurrir de
- 3. Riesgos de control. Si se ejecuta una instrucción de salto, el cambio no se ve reflejado hasta la fase de memoria, esto implica una detención de 3 ciclos. En DLX se utiliza lógica especializada para averiguar si el salto es efectivo y para la calcular la dirección destino de salto en la etapa de descodificación.

Cuando existe un riesgo que no es posible evitar con estas técnicas se aplica un interbloqueo de la segmentación. Este recurso actúa de modo que cuando se detecta un riesgo se detiene la ejecución de la instrucción hasta que el riesgo desaparece. El bloqueo se realiza en la fase de decodificación, donde es posible determinar si existe algún riesgo.

#### Memoria DLX

Todas las referencias a memoria se realizan a través de instrucciones de carga y almacenamiento, cargando los datos en los registros, donde se pueden acceder y trabajar con ellos, y almacenándolos en memoria.

El acceso a memoria es direccionable por bytes en el modo «Big endian» con una dirección de 32 bits almacenada previamente en un registro. Los accesos pueden realizarse a un byte, media palabra o una palabra completa. Además se puede acceder a palabras en doble precisión para almacenarlas en los registros de punto flotante.

#### 2.1.6. ARM

La arquitectura ARM fue originalmente desarrollada por Acron Computer Limited, entre los años 1983 y 1985.

Actualmente la arquitectura ARM es el conjunto de instrucciones más ampliamente utilizado en unidades producidas. Esto se debe a su amplio uso

2.1. Procesador



Figura 2.5: Procesador Qualcomm Snapdragon 810

en los sectores de telefonía móvil, sistemas de automoción, computadoras industriales y otros dispositivos.

Lo que hace que esta arquitectura sea tan popular es la simpleza de sus núcleos, utilizan un número relativamente pequeño de transistores, permitiendo añadir funcionalidades específicas en otras partes del mismo chip [3]. Por ejemplo, uno de los procesadores de ultima generación de la empresa Qualcomm, el «Qualcomm Snapdragon 810» esta compuesto por una CPU con 8 núcleos ARM, una unidad de procesamiento gráfico, controladores de pantalla, conectividad y cámara entre otros, todo ello en un único chip [19]. Figura 2.5.

Además de requerir poco espacio, los dispositivos ARM están diseñados con el objetivo de minimizar el consumo de energía, haciéndolo apropiado para sistemas móviles empotrados<sup>1</sup> que dependen de una batería.

Por último, la arquitectura ARM es altamente modular, es decir, sus componentes como pueden ser la memoria caché o los controladores, se construyen como módulos independientes y opcionales..

Todo ello no impide que la arquitectura ARM resulte muy eficiente y proporcione un alto rendimiento.

#### Arquitectura ARM

La arquitectura ARM [17] deriva de la arquitectura RISC con las características propias de esta:

■ Banco de registros uniforme.

<sup>&</sup>lt;sup>1</sup>Sistema de computación diseñado para realizar una o pocas funciones dedicadas.

- Las instrucciones de procesamiento operan sobre los datos almacenados en los registros.
- Modos de direccionamiento simples.
- Instrucciones de tamaño fijo.

La arquitectura ARM añade algunas características adicionales para proporcionar un equilibrio entre el rendimiento, el tamaño del código, el consumo y el silicio requerido, estas son:

- Control adicional sobre la unidad aritmético-lógica.
- Auto-incremento y auto-decremento para el direccionamiento.
- Instrucciones de carga y almacenamiento múltiple.
- Ejecución condicional de instrucciones.

La arquitectura ARM contiene un banco de registros con 31 registros de propósito general. De estos sólo son visibles 16, a los cuales puede acceder cualquier instrucción. Los otros registros se utilizan para acelerar el procesado. Tres de los 31 registros tienen un uso especial y son el «puntero de pila (SP)», el «registro de enlace (LR)» y el «contador de programa (PC)».

## Repertorio de instrucciones ARM

El repertorio de instrucciones se divide en seis categorías:

#### Salto

Además de permitir que las instrucciones aritmético-lógicas alteren el flujo de control, almacenando sus resultados en el registro PC, se incluye una instrucción estándar capaz de aplicar un salto de hasta 32MB hacia delante o hacia atrás.

Otra instrucción de salto permite almacenar el valor del contador de programa en un registro para poder volver al mismo punto al finalizar el desvío. Esto es útil cuando se quiere llamar a una subrutina.

También es posible lanzar instrucciones de salto que realizan un cambio de juego de instrucciones, en caso de necesitar lanzar subrutinas en alguno de los otros juegos de instrucciones compatibles con la arquitectura como en el caso de Thumb o Jazelle.

#### Procesamiento de datos

El procesamiento de datos se realiza mediante instrucciones aritméticológicas, operaciones de comparación, instrucciones sobre múltiples datos, instrucciones de multiplicación y operaciones diversas. 2.1. Procesador 17

Las instrucciones aritmético-lógicas, como su nombre describe, ejecutan operaciones aritméticas o lógicas sobre dos operandos. El primer operando siempre será un registro, mientras que el segundo puede ser un inmediato, o un segundo registro. El resultado se almacena en un registro.

Como se ha comentado anteriormente, las operaciones de comparación aplican una operación aritmético-lógica. Sin embargo no escriben el resultado en un registro, actualizan los flags de condición.

## • Transferencia de registros de estado

Estas instrucciones son capaces de transferir contenido entre los registros especiales CPSR y SPSR, y los registros de propósito general.

Al escribir en el registro CPSR se consigue establecer los valores de los bits de condición, habilitar o deshabilitar interrupciones, cambiar el estado y el modo del procesador, y cambiar el modo de acceso a memoria entre «little endian» o «big endian».

### ■ Carga y almacenamiento

Las instrucciones de carga y almacenamiento permiten transmitir datos entre los registros de propósito general y la memoria externa.

Se pueden cargar o almacenar los registros de forma individual, un solo dato por instrucción, o de forma colectiva, un bloque de datos con una sola instrucción.

#### Co-procesador

Las instrucciones de co-procesador comunican el procesador principal con un co-procesador auxiliar para transmitir instrucciones o datos.

Existen tres clases de este tipo de instrucciones: Procesado de datos, comienza el trabajo específico del co-procesador. Transferencia de instrucciones, envía o recibe datos del procesador a la memoria. Transferencia de registro, envía o recibe datos entre los registros del microprocesador y el co-procesador.

#### Excepciones

Las instrucciones de excepción generan interrupciones en el programa. Las instrucciones «Interrupción software» normalmente se utilizan para realizar peticiones al sistema operativo. Mientras que las instrucciones «Punto de interrupción software» generan excepciones abortando la ejecución del programa.

Los procesadores ARM son capaces de procesar instrucciones de tres repertorios diferentes. El repertorio ARM [26], el set Thumb/ Thumb-2 [2] y las instrucciones Jazelle [26].



Figura 2.6: Segmentación ARM

# Segmentación ARM

La arquitectura ARM está segmentada en 3 etapas para aumentar la velocidad de flujo de entrada de las instrucciones en el procesador. Permite realizar varias operaciones al mismo tiempo y operar de forma continua. [16]

Las tres etapas en las que se divide la segmentación son: (Figura 2.6)

#### 1. Búsqueda de instrucción

Se accede a la memoria para extraer la instrucción.

#### 2. Decodificación

Los registros utilizados son extraídos de la instrucción.

## 3. Ejecución

Los valores de los registros se extraen del banco de registros, se realizan las operaciones, y se almacenan los resultados en el banco de registros.

Mientras se ejecuta una instrucción, la siguiente es decodificada y una tercera es traída de memoria.

#### Memoria ARM

Se utiliza una arquitectura Von-Neumann con un único bus de 32 bits para acceder tanto a las instrucciones como a los datos.

El único tipo de instrucciones con acceso a memoria son las instrucciones de carga y almacenamiento. Puede transmitir datos de 8, 16 o 32 bits, alineados cada 1, 2 y 4 bytes respectivamente. [16]

# 2.2. Field-Programmable Gate Arrays

Las FPGAs, del inglés Field-Programmable Gate Arrays, consisten en bloques lógicos con conexiones programables para realizar diferentes diseños [21]. Figura 2.7.

Los bloques pueden ser tan simples como un transistor o tan complejos como un microprocesador. Las FPGAs comerciales suelen tener bloques basados en:

Parejas de transistores.



Figura 2.7: Arquitectura de una FPGA

- Puertas lógicas simples.
- Multiplexores.
- Look-up tables (LUT).
- Estructuras de puertas AND-OR.

Debido a su naturaleza re-configurable, las FPGAs conllevan un mayor coste en área, retardos y consumo de energía: requieren un área 20 veces mayor, consume 10 veces más energía y trabaja 3 veces más lenta [15]. Estas desventajas son minimizadas por la ventaja de permitir que el sistema funcione de forma casi inmediata.

Las ventajas de este tipo de dispositivos residen en su gran versatilidad, flexibilidad, su alta frecuencia de trabajo, su capacidad de procesamiento en paralelo, y a su bajo precio en comparación con los «Circuitos Integrados para Aplicaciones Específicas (ASICs)»<sup>2</sup>.

Es por ello que las FPGAs se utilizan en todo tipo de sectores desde el procesamiento de datos y las comunicaciones hasta el sector de la automoción, el sector militar y el sector aeroespacial. Ha sido el sector de comunicaciones, como vemos en la figura 2.8, el que más uso hacía de esta tecnología en 2008.

<sup>&</sup>lt;sup>2</sup>Circuitos integrados hechos a la medida para un uso particular.



Figura 2.8: Distribución del uso de FPGAs en el año 2008.

## 2.3. Fallos

Un fallo ocurre cuando un sistema no ha funcionado correctamente. Se pueden encontrar desde fallos en la definición de requisitos que se propagan hasta la fase de producción, hasta fallos producidos en el sistema por agentes externos, como la radiación. En un sistema electrónico pueden ocurrir fallos que se clasifican en «soft errors» o fallos transitorios y «hard errors» o fallos permanentes.

Cuando el fallo ocurrido afecta a los elementos de memoria alterando sus valores, lo que incluye tanto a los datos como a las instrucciones, se conoce como «soft error» o fallo transitorio. Sin embargo, si el fallo daña o altera el funcionamiento del chip, se conoce como «hard error» o fallo permanente.

En esta sección no se contemplan los fallos que se producen a partir de una mala implementación, únicamente se centra en los fallos producidos por agentes externos que no se pueden evitar en las fases de diseño, y que afectan al hardware, dañando sus componentes o alterando los valores de las señales con las que trabaja.

# 2.3.1. Causas

En general, estos fallos se conocen como «Single-Event Effects (SEEs)». Se deben al choque de una partícula de energía contra un elemento del circuito integrado. Figura 2.9.

Las partículas de energía pueden ser:

• Los rayos cósmicos: Si poseen suficiente carga pueden depositar energía suficiente para invertir un bit en un elemento de memoria, en una puerta lógica, o en una sección del circuito. Estos rayos pueden tener un origen galáctico o solar.

2.3. Fallos 21



Figura 2.9: Single Event Upset en una FPGA [9].

• Los protones y neutrones de alta energía: Bien sean de origen radiactivo o solar, pueden provocar una reacción radiactiva ionizando elementos en el chip y provocando un SEE.

Los rayos cósmicos y las partículas solares reaccionan con la atmósfera provocando un efecto de lluvia de partículas. La atmósfera actúa a modo de filtro contra estas partículas. Este efecto se distribuye de manera diferente alrededor de la tierra debido a la densidad de la atmósfera, variando la proporción de partículas que llegan a nivel de suelo y las que quedan bloqueadas.

Como ya se adelantó en la introducción, los efectos varían según la latitud, la longitud y la altitud. Figura 2.10. Al entrar en contacto con la atmósfera las partículas colisionan contra estas y pierden energía. Cuanto menor sea la densidad, mayor será el número de partículas que llega al nivel del suelo manteniendo su energía, mayor será el numero de partículas que puedan colisionar contra un chip y en consecuencia mayor la probabilidad que se produzca un fallo. Para más información sobre lluvias de partículas véase [18].

### 2.3.2. Tipos de fallos

Los fallos se clasifican los fallos en dos tipos: Fallos transitorios o no destructivos, y fallos permanentes o destructivos.

#### Fallos Transitorios

Los fallos transitorios, también llamados «soft errors», son aquellos que cambian el estado del dispositivo o celda sin afectar a su funcionalidad.

Los principales tipos de fallos transitorios son [12]:

## • Single-Event Upset (SEU)

Aquellos fallos que afectan a los elementos del chip invirtiendo su valor: memoria, celdas de memoria o registros. En un microprocesador se



Figura 2.10: Flujo de neutrones a 40.000 pies de altitud [9].

pueden corromper los datos del banco de registro, o los datos y las señales de control entre las etapas de segmentación. Figura 2.11a.

#### Single-Event Functional Interrupt (SEFI)

Fallos que producen una perdida temporal de la funcionalidad del dispositivo, provocando un mal funcionamiento detectable, que no requiere reiniciar el sistema para recuperar la funcionalidad. Normalmente se asocia con un SEU en los registros de control.

## • Single-Event Transient (SET)

Picos de energía provocados por una partícula en un nodo de un circuito integrado. Pueden propagarse y almacenarse en un biestable si se produce en un flanco de reloj. Figura 2.11b.

El sistema sufre las consecuencias como un cambio de valor en un bit. Si se produce un fallo de este tipo en una celda de memoria o en un registro de un microprocesador se corromperá el dato almacenado. Si afecta a un biestable en cualquier etapa de la segmentación, puede alterar el comportamiento de la instrucción, siendo más o menos grave según el lugar donde se produzca el fallo.

## Fallos Permanentes

Los fallos permanentes o «hard errors» son los que afectan a la funcionalidad del dispositivo y lo dañan permanentemente. Pueden producir cambios en el diseño que impiden el correcto funcionamiento del módulo o circuito que lo sufre. [12]

Los principales tipos de fallos permanentes son:



Figura 2.11: Fallos Transitorios

## • Single-Event Latch-up (SEL)

Corto-circuito en un transistor que provoca el mal funcionamiento del mismo. En algunos casos pueden ser reparados reiniciando el sistema.

## Single-Event Hard Errors (SHE)

Este fallo se identifica por causar que las celdas afectadas no puedan cambiar de estado.

Existen otros tipos de fallos permanentes, Single-Event Burnout (SEB) y Single-Event Gate Rupture (SEGR), que destruyen el transistor a nivel físico.

Los fallos permanentes, una vez detectados, únicamente pueden solucionarse sustituyendo el chip o modificando la configuración interna del propio chip. Véase el apartado 2.4.3.

## 2.4. Tolerancia a Fallos

La tolerancia a fallos se define como la capacidad de un sistema para funcionar correctamente, incluso si se produce un fallo o anomalía en el sistema. En ocasiones se producen fallos que no llegan a propagarse por el sitema y no producen errores en su funcionamiento, algo que ocurre cuando los cambios sufridos en un sistema debidos a un fallo, se ven enmascarados. Pueden deberse a alguna de las siguientes razones:

#### • Enmascarado lógico

Se evita el error en una puerta lógica, gracias a que el valor del dato no es necesario para estimar la salida. En la figura 2.12 vemos que el valor de la señal invertida es indiferente para calcular el resultado ya que el resultado de una puerta «or» es «1» siempre que una de sus entradas sea «1».



Figura 2.12: Fallo enmascarado por una puerta lógica.

#### ■ Enmascarado eléctrico

El fallo producido pierde intensidad en el recorrido lógico y no tiene efecto al llegar al elemento de memoria donde se almacenaría. Figura 2.13.



Figura 2.13: Fallo enmascarado eléctricamente.

# • Enmascarado temporal

El fallo se propaga con suficiente energía hasta el biestable, sin embargo, ocurre fuera de la de la ventana crítica de tiempo y la señal puede estabilizarse a su valor correcto antes de almacenarse en el biestable Figura 2.14.

Dependiendo de la aplicación del sistema, se distinguen diferentes grados de tolerancia:



Figura 2.14: Fallo enmascarado por ventana de tiempo.

### ■ Tolerancia completa (fail operational)

El sistema puede seguir funcionando sin perder funcionalidad ni prestaciones.

## Degradación aceptable (failsoft)

El sistema continua funcionando parcialmente hasta la reparación del fallo.

## • Parada segura (failsafe)

El sistema se detiene en un estado seguro hasta que se repare el fallo.

La tolerancia a fallos hardware se resuelve principalmente aplicando la redundancia en una o varias de sus modalidades:

#### 2.4.1. Redundancia en la información

La redundancia de datos se basa en mantener varias copias de todos los datos en diferentes ubicaciones junto a códigos de detección y corrección de errores. La replicación de datos consigue que la perdida o daño de una memoria no implique la perdida de los datos que almacena, mientras que los códigos de detección y corrección permiten comprobar los datos en busca de errores y corregir los datos si fuese necesario.

El ejemplo más claro de este tipo de tolerancia es el conocido como conjunto redundante de discos independientes o redundant array of independent disks (RAID). Las diferentes clases de RAID proporcionan un acceso a los datos rápido y transparente para el sistema operativo [27]. Por ejemplo:

- RAID 1: Se basa en la utilización de discos adicionales sobre los que se realiza una copia de los datos que se están modificando.
- RAID 5: Reparte la información en bloques con bits de paridad, que se guardan en diferentes discos.

#### 2.4.2. Redundancia en el tiempo

La redundancia en el tiempo es efectiva contra los fallos transitorios. Consiste en ejecutar parte de un programa o el programa completo varias veces. Los fallos transitorios, como se ha explicado anteriormente, se producen en zonas aleatorias del chip, siendo poco probable que aparezca el mismo error en el mismo lugar.

Aunque este tipo de redundancia requiere una menor cantidad de hardware y de software, obliga a ejecutar varias veces el programa, con lo que se produce una reducción en el rendimiento del sistema.

Algunas técnicas de redundancia en el tiempo se basan en «puntos de control» o «checkpoints». Consisten en almacenar los datos con los que se está trabajando cada cierto tiempo, se crea así un «punto de control». eUna vez se detecta un error se recurre al último «checkpoint» en lugar de tener que reiniciar el programa completo [13].

#### 2.4.3. Redundancia en el hardware

La redundancia hardware se basa en la inserción de módulos extra para la detección y corrección de los fallos. Aunque su objetivo es el de reducir el número de fallos que provocan errores, la inserción de módulos extra implica un aumento en la complejidad del sistema, paradógicamente, con ello aumenta la posible aparición de nuevos fallos.

El tolerancia con hardware redundante se clasifica en:

- Tolerancia estática: Se hace uso de varias unidades que realizan la misma función en paralelo.
- Tolerancia dinámica: Consiste en mantener una unidad en funcionamiento y varias de repuesto para sustituirla si fuera necesario.
- Tolerancia híbrida: Combinan tolerancia estática con tolerancia dinámica.

Algunas técnicas se detallan a continuación [14].

#### Redundancia modular

La redundancia modular consiste en replicar N veces el bloque al que se desea aplicar la tolerancia, siendo N un número impar, y a través de una votación de mayoría de las salidas extraer el valor correcto del módulo. Al aplicar la redundancia modular es posible corregir los fallos producidos en  $\frac{N}{2}$  de los módulos redundantes.

El votador de mayoría es un componente de lógica combinacional que determina el valor más repetido en sus entradas. Actúa recibiendo tanto las

salidas del bloque original como de cada una de las réplicas y determinando cual es el valor más repetido. De este modo los fallos quedan enmascarados.

Este método es conocido como «N-Modular Redundancy (NMR)», y el uso más común de esta técnica es la «Triple Modular Redundancy (TMR)», con N=3.

En la figura 2.15 se observa el resultado de aplicar la TMR a un bloque.



Figura 2.15: Aplicando Triple Modular Redundancy (TMR)

Esta técnica permite evitar los fallos producidos dentro de los bloques, sin embargo inserta un nuevo punto crítico. Si el votador, un circuito combinacional, se ve afectado por un SET, este puede propagarse y afectar a los siguientes bloques, generando un error en la ejecución.

### Re-configuración

La re-configuración de un sistema consiste en cambiar su implementación en el momento deseado. Por ejemplo, cuando nuestro sistema empieza a fallar debido a que parte del chip se ha dañado, en vez de eliminar el chip y sustituirlo por otro, se puede configurar el mismo circuito de manera que se eviten las zonas dañadas.

En el apartado 2.2 de este mismo capitulo se han introducido las FP-GAs, sistemas re-programables que permiten al diseñador re-configurar su estructura para realizar diferentes tareas, o la misma con una nueva implementación u organización de los componentes.

En la imagen 2.16 podemos ver un ejemplo de re-configuración, concretamente de re-configuración en un caso de tolerancia dinámica parcial.

Hay dos formas de aplicar la re-configuración a un sistema [5]:

#### • Re-configuración estática

Aquella que requiere detener el sistema completamente e iniciarlo con la nueva configuración.

#### ■ Re-configuración dinámica



Figura 2.16: Tolerancia dinámica parcial [25].

Aquella que en tiempo de ejecución es capaz de sustituir parcial o completamente el diseño del sistema.

## 2.4.4. Tolerancia en microprocesadores

La importancia de aplicar estas técnicas a los microprocesadores viene condicionada por la utilización final que se haga de los mismos. Inicialmente, los microprocesadores nacen sin un uso específico, es precisamente su empleo final el que determina la necesidad de emplear técnicas de tolerancia. Tal puede ser el caso en misiones espaciales o como cotroladores de sistemas vitales.

La NASA utiliza microprocesadores para sus misiones espaciales. Los incluye en sus sistemas de asistencia a la vida y sistemas de experimentación. Tradicionalmente la NASA ha utilizado técnicas de tolerancia estática, como las técnicas de NMR por su buena confiabilidad [24]. En estos casos se hacen más necesarias por la mayor tasa de fallos que se da fuera de la atmósfera terrestre.

Algunas técnicas aplicadas a microprocesadores, sin modificar su diseño interno, requieren de un sistema externo conectado al microprocesador, que sea capaz de comprobar los valores internos, detectar los fallos y recuperar el sistema, relanzando las instrucciones o recuperando los valores correctos. Para prevenir los casos en los que los fallos se producen en el circuito de comparación y detección, se recurre principalmente a técnicas de NMR en estos circuito, evitando tener que modificar la estructura interna del microprocesador, se replica el sistema de comprobación, que normalmente tendrá una implementación más simple que el propio microprocesador. [28]

Otras técnicas utilizadas sobre microprocesadores evitan modificar o añadir sistemas auxiliares para comprobar y corregir los fallos. Se centran en la «tolerancia en el tiempo» esto es, duplicando el programa y lanzando ambos en el mismo procesador de forma simultanea. Se propone esta técnica por considerar que las técnicas de *«tolerancia hardware»* son demasiado intrusivas para el diseño, insuficientes para cubrir los fallos lógicos o demasiado costosa para la computación de proposito general[22].

Existen procesadores tolerantes a fallos en el mercado, tales como el «LEON3FT», una implementación tolerante a fallos de la tercera versión del procesador «LEON», el «IBM S/390 G5» o el «Intel Itanium» [4].

En concreto el «LEON3FT», fue diseñado para misiones militares y espaciales. Tiene cuatro modos de tolerancia que dependen de la tecnología utilizada y de la cantidad de bloques RAM disponibles. El modo de tolerancia se selecciona a la hora de sintetizar el diseño y estos modos pueden ser: [10]

#### • Biestables resistentes a la radiación o TMR.

Se utilizan registros compuestos de biestables reforzados para resistir la influencia de la radiación o se utiliza la técnica TMR.

#### ■ Paridad de 4-bits con reinicio.

Se utiliza un código «checksum» de 1 bit por cada byte, 4 bits por palabra. Se reinicia la cola de segmentación para corregir los fallos.

#### • Paridad de 8-bits sin reinicio.

Se utiliza un código *«checksum»* de 8 bits por palabra y permite corregir 1 bit por byte, puede llegar a corregir 4 bits por palabra. La corrección se realiza sin reiniciar la cola de segmentación.

## • Código BCH de 7 bits con reinicio.

Se utiliza un código «BCH checksum» de 7 bits, que permite detectar fallos en 2 bits y corrige 1 bit por palabra. La cola de segmentación se reinicia al aplicar la corrección.

El procesador «IBM S/390 G5» duplica la cola de segmentación hasta la etapa de escritura, lanzando la misma instrucción dos veces. En la etapa de escritura se comparan los resultados , en caso de discrepancia no se escribe el resultado y se reinicia la ejecución desde la instrucción fallida. La ventaja proporcionada por este método reside en que el tiempo de propagación de las señales no se ve afectado por la inserción la lógica del votador. En caso contrario, el reiniciar la cola de segmentación puede costar miles de ciclos de reloj. [4]

Por último, la implementación de Intel en el «Intel Itanium» incluye una combinación de códigos de correción de errores y códigos de paridad en las memoria caché y TLB. [4]

# Bibliografía

Y así, del mucho leer y del poco dormir, se le secó el celebro de manera que vino a perder el juicio.

Miguel de Cervantes Saavedra

- [1] V. Arnau Llombart. Manual DLX.
- [2] R. Brinkgreve, W. Swolfs, and E. Engin. ARM Architecture Reference Manual Thumb-2 Supplement. 2011.
- [3] C. T. Bustillos. Simulador arm en el ámbito docente. 2012.
- [4] J. Gaisler. A portable and fault-tolerant microprocessor based on the SPARC V8 architecture. *Proceedings of the 2002 International Conference on Dependable Systems and Networks*, pages 409–415, 2002.
- [5] J. C. González Salas. Filtro adaptativo tolerante a fallos. PhD thesis, 2014.
- [6] S. Habinc. Functional Triple Modular Redundancy (FTMR). Design and Assessment Report, Gaisler Research, pages 1–56, 2002.
- [7] J. L. Hennessy and D. A. Patterson. Arquitectura de Computadores: Un enfoque cuantitativo. Mcgraw Hill Editorial, 1993.
- [8] J. L. Hennessy and D. a. Patterson. Computer Architecture, Fourth Edition: A Quantitative Approach. Number 0. 2006.
- [9] A. C. Hu and S. Zain. NSEU Mitigation in Avionics Applications. 1073:1–12, 2010.
- [10] O. Ieee-std. LEON3 7-Stage Integer Pipeline. (March), 2010.
- [11] A. O. Investigation. ATSB TRANSPORT SAFETY REPORT Aviation Occurrence Investigation AO-2008-070 Final. (October), 2008.

40 Bibliografía

[12] Jedec. Measurement and Reporting of Alpha Particle and Terrestrial Cosmic Ray Induced Soft Error in Semiconductor Devices: JESD89A. *JEDEC Sold State Technology Association*, pages 1–85, 2006.

- [13] A. Kadav, M. J. Renzelmann, and M. M. Swift. Fine-grained fault tolerance using device checkpoints. *Proceedings of the eighteenth international conference on Architectural support for programming languages and operating systems ASPLOS '13*, page 473, 2013.
- [14] H. Kirrmann. Fault Tolerant Computing in Industrial Automation. Lecture notes ABB Corporate ResearchETH, 2005.
- [15] I. Kuon, R. Tessier, and J. Rose. FPGA Architecture: Survey and Challenges. Foundations and Trends® in Electronic Design Automation, 2(2):135–253, 2007.
- [16] A. R. M. Limited. ARM7TDMI-S. (Rev 3), 2000.
- [17] a. R. M. Limited. ARM Architecture Reference Manual. pages 1–1138, 2007.
- [18] W. K. Melis. Reconstruction of High-energy Neutrino-induced Particle Showers in KM3NeT. PhD thesis, 2014.
- [19] C. Mobile. Streaming 4K Ultra HD video at home and on the go. pages 0-1.
- [20] J. M. Pascual. Simulador DLX con repertorio multimedia. PhD thesis, Universidad Complutense de Madrid, 2011.
- [21] J. Rose, A. E. Gamal, and A. Sangiovanni-Vincentelli. Architecture of Field-Programmable Gate Arrays.
- [22] E. Rotenberg. AR-SMT: a microarchitectural approach to fault tolerance in microprocessors. Digest of Papers. Twenty-Ninth Annual International Symposium on Fault-Tolerant Computing (Cat. No. 99CB36352), 1999.
- [23] S. Sadasivan. An introduction to the arm cortex-m3 processor, 2006.
- [24] D. J. Sorin and S. Ozev. Fault Tolerant Microprocessors for Space Missions. *Memory*, pages 1–4.
- [25] U. States. Reduce Cost and Board Space. 374:1–8, 2011.
- [26] I. S. Summary, T. C. Field, M. Long, S. D. Transfer, U. Instruction, and I. S. Examples. ARM Instruction Set. pages 1–60.
- [27] J. M. Torrecillas. RAID Tolerancia a Fallos.

Bibliografía 41

[28] C. Weaver and T. Austin. A fault tolerant approach to microprocessor design. *Proceedings of the International Conference on Dependable Systems and Networks*, (July):411–420, 2001.